7 Variational Inference based on Robust Divergences

文献阅读记录,这篇稍微读全一点

文献简介

摘要+Intro+结论

本文研究过程:

  • 背景:稳健性在机器学习中十分重要
  • 传统标准方法0:基于模型,使用重尾分布,缺点是只能用于少数简单模型
  • 新方法1:Zellner的贝叶斯变分推断,用KL散度,是我熟知的那个
  • 新方法2:基于方法1,使用$\beta$散度,导出伪贝叶斯变分推断,更稳健,但只针对了简单高斯分布做数学证明
  • 本文方法3:基于方法1,使用稳健的$\beta$或者$\gamma$散度,导出伪贝叶斯变分推断。优点如下:
    • 针对了更复杂的模型,证明了对ReLu激活的DNN的稳健性。对比了只做简单模型验证的新方法2
    • 完成IF分析,在ReLu激活的DNN上对比了方法1的无界IF,因此对特征和标签扰动都是稳健的;第二个对比是我毕设主文献,其IF分析是渐进有界的,此方法则有限样本必有界
  • 未来工作:拓展到更多复杂模型、与其它推断估计方法结合

预备知识

  • MLE与其稳健变式:

    • 原始MLE很简单,(2)可以用狄拉克函数推导出来
    • 稳健变式即散度的变化,$\beta$和$\gamma$散度都可以退化到KL散度,(8)式有点恶心,但是自己带入就推出来了(已推)
  • 贝叶斯变分推断:

    Emmm,真的就是介绍下变分推断…其中(12)式没看明白,应该问题不大…

本文方法——基于稳健散度的稳健推断

总的方法就是在正常变分推断的基础上,把式(14)中的第一项期望中的KL散度项替换为稳健散度。

以$\beta$散度为例,举了例子,近似的参数后验分布有(18)式给出,具体怎么算的话…积分鬼才,本文表示用好用的分布族+重参数化采样近似去计算。

注:其中有个不对劲的地方,$\beta$交叉熵,我查阅了原始论文Robust and efficient estimation by minimising a density power divergence中的(4.1)式,本文好像少了一个常数项,虽然求导不影响啦~

IF分析

本文的IF定义介绍我不是太明白,但是意思我懂了,即数据偏差导致的变化。接下来的定理我也不懂,反正都是给好的结果。接下来的分析我基本上都明白了,结果也看懂了,即IF分析表明稳健散度在DNN(包括分类回归)上对特征和标签扰动导致的IF都是有界的即稳健起来了。除了(26)式又不懂了

实验

实验很正常,数据特征和标签的两种打乱方式,按照所提稳健散度引出的稳健VI,分别在人造数据和真实数据上进行了实验。

  • 人造数据简单验证了稳健性

  • 用UCI数据打乱的程度与测试对数似然的关系验证了稳健性

  • 用交叉验证的方法获取较优的稳健散度的参数,并以优异结果验证了稳健性